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[摘要 ] 本 文 以 文本 处 理 中 的 基本 任务 之 一 -- 实 体 名 称 规范 为 主题 ， 阅 明了 实体 名 称 规范 中 两 
种 类 型 的 任务 , 一 个 实体 多 个 名 称 的 实体 共 指 消解 问题 和 一 个 名 称 指 代 不 同 实体 的 实体 歧义 
问题 ， 结 合 这 两 类 任务 , 综合 分 析 了 当前 的 相关 研究 成 果 , 重点 介绍 了 当前 解决 实体 名 称 规 
范 时 典型 的 思路 与 方法 , 推动 实体 名 称 规范 研究 的 重要 的 项 目 与 重要 评测 会 议 , 并 结合 当前 
究 中 仍 存 在 的 问题 ， 分 析 探 讨 了 实体 名 称 规范 的 研究 趋势 。 
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[Abstract|This article focus on the Named Entity Normalization (NEN),which is a basic task of 
text processing. It describes two types sub-tasks of NEN,Co-reference Resolution and Entity 
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1 概述 
在 现实 世界 中 , 不 同 的 人 经 常会 给 予 同一 个 事物 不 同 的 名 称 或 描述 。 随 着 信息 科技 的 不 
断 发 展 ， 网 络 资源 越 来 越 多 ， 这 类 事物 的 名 称 也 越 来 越 多 样 化 ,这 为 计算 机 的 自动 理解 和 计 
算 带 来 了 很 大 的 挑战 。 为 了 支撑 相应 的 文本 处 理 任务 ,如 机 器 翻译 、 信 息 检 索 、 数 据 挖掘 等 ， 
将 这 些 名 称 、 描 述 与 其 对 应 的 事物 对 应 起 来 , 并 从 中 选择 一 种 规范 的 表达 作为 不 同名 称 或 描 
述 之 间 的 核心 关联 非常 有 必要 ， 由 此 产生 了 实体 名 称 规范 这 样 一 个 概念 。 

从 主题 角度 而 言 ， 与 实体 名 称 规范 密切 相关 的 研究 主题 包括 实体 名 称 共 指 消解 、 缩 略语 
识别 、 实 体 名 称 消 歧 等 ， 其 相应 的 英文 名 称 为 “Named Entity Disambiguation, Abbreviation 
Reorganization, Co-reference Resolution, Named Entity Normalization ”等 。 从 任务 角度 而 言 ， 
实体 名 称 规范 包括 两 种 类 型 的 任务 ，〈1) 一 个 实体 有 多 种 名 称 的 实体 共 指 问题 。 该 问题 既 
包括 代词 的 共 指 消解 ， 如 “he，she” 等 人 称 代 词 实际 指称 对 象 的 查找 ， 也 包括 名 词性 称呼 
的 消解 ， 如 “44th Present of US”、“Barack Obama”、“Present Obama ”等 可 能 均 指 代 同 
一 个 人 ， 这 就 需要 明确 这 些 实体 名 称 是 否 确定 指 代 同 一 个 实体 概念 。2) 一 个 名 称 可 能 指 
代 不 同 的 实体 的 实体 卜 义 问题 申 。 实体 由 于 一 个 词义 的 表达 方法 (从 含义 的 有 限 集合 枚 举 到 
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因 , 往往 会 出 现 一 个 实体 名 称 可 以 对 应 到 多 个 命名 实体 概念 上 的 
” 既 可 能 指称 华盛顿 州 ， 也 可 能 指 代 美 国 的 第 一 任 总 统 。 针 对 此 ， 
人体 是 什么 概念 。 

究 了 当前 的 相关 研究 成 果 ， 重 点 介绍 了 当前 


解决 实体 名 称 规范 时 典型 的 思路 与 方法 , 推动 实体 名 称 规范 研究 的 重要 的 项 目 与 重要 评测 会 


议 ， 并 结合 当前 研究 中 仍 存在 的 问题 ， 


2 实体 名 称 规范 的 主要 思路 与 方法 


实体 名 称 规范 事实 


上 主要 是 一 个 以 计算 的 方式 


分 析 探 讨 了 实体 名 称 规范 的 研究 趋 


势 。 


过 程 外 ， 它 与 常规 的 词义 消 歧 任 务 (Word sense disambiguation) 有 
的 缺乏 、 实 体 名 称 指称 形式 更 为 多 样 “ 全 称 、 
不 同 语系 的 拼写 差异 -英美 语系 等 ) 等 问题 的 存在 ， 实 体 名 称 
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名 实体 概念 列 


这 样 的 任务 , 其 中 需要 涉及 到 逢 


自动 辨析 词语 在 上 下 文中 的 真实 含义 的 
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很 多 相似 之 处 ， 但 由 于 命 
缩 略 语 、 别 称 、 代 词 、 简 称 、 
规范 的 任务 更 加 复杂 。 要 完成 
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1 识 信息 。 本 文 对 当前 的 一 些 主要 研究 


进行 了 梳理 ， 提 炼 出 三 种 主流 的 方法 思路 ， 有 基体 阐述 如 下 。 
2.1 基于 Web 对 象 属性 信息 的 实体 名 称 规范 研究 

Web 页 面 中 往往 舱 入 了 各 种 各 样 的 对 象 ， 如 人 、 产 品 、 组 织 机 构 等 实体 名 称 。 从 Web 
页 中 抽取 并 集成 这 些 对 象 , 可 以 实现 功能 强大 的 对 象 层 内 容 揭示 。 此 类 方法 的 优势 在 于 其 来 
源 数据 的 特殊 性 ， 这 些 来 源 于 web 网 页 的 资源 在 获取 其 属性 方面 具有 很 大 的 便利 性 ， 从 而 
为 基于 属性 模板 的 共 指 消 解 提 供 了 很 大 的 便利 条 件 。 

Zaiqing NieB] 等 认为 ，Web 对 象 是 描述 某 一 Web 信息 的 数据 单元 , 通常 可 以 看 作 是 与 应 
领域 相关 的 概念 。 一 个 Web 对 象 可 以 通过 一 系列 的 属性 表示 ， 如 A={al, a2,…… am). 
对 象 的 属性 集 可 根据 领域 的 需要 预先 设置 。 在 实际 研究 中 ，Zaiqing Nies Web 上 一 系列 
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的 抽取 , 这 一 过 程 主要 是 | 
成 为 不 同 的 属性 ， 并 日 
获取 的 属性 值 来 实 

尽管 该 类 方法 实 


据 的 格式 限 
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有 一 定 结构 的 相同 条 目 ( 如 产品 列表 、 服 务 丙 
领域 相关 的 数据 记录 ， 形 成 对 象 记 录 级 别 的 标识 。 


上 一步 抽 取出 的 数据 记录 进 


从 多 个 来 源 的 记录 中 ,实现 同一 对 象 不 同 
对 象 的 融合 。 

岗 的 便利 性 和 准 
Bp. DOER 
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2.22 基于 大 规模 知识 库 的 实体 名 称 规范 研究 


(bag-of-word) 模型 ， 但 它 忽 略 了 语义 关系 。 随 着 网 络 | 


为 弥补 以 外 


方法 的 不 足 ， 不 少 学 者 提出 了 利 月 


IRI 称 为 数据 记录 ，2 
然后 进 


从 数据 源 中 抽取 出 与 
性 级 别 (attribute-level) 
行 分 析 , 将 数据 记录 中 的 不 同 部 分 标识 
属性 值 的 获取 。 最 终 依据 所 
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但 该 类 方法 也 有 较 大 限 人 


判 ， 对 于 来 源 数 


量 结构 化 或 半 结 构 化 描述 了 实体 的 网 页 。 


实体 消 靶 的 关键 问题 是 测度 实体 名 称 出 现 的 相似 度 ， 传 统 的 测度 方法 是 利用 BOW 
上 结构 化 、 半 结构 化 知识 库 的 出 现 ， 
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背景 知识 来 提升 实体 名 称 规范 的 效果 ,这 也 是 当前 实体 名 称 


知识 库 ， 基 于 这 些 知 识 库 提 供 的 


规范 研究 中 的 核心 内 容 之 一 。 


Wikipedia FH 
富 的 语义 信息 且 内 容 时 时 更 新 等 特点 ， 


知识 库 时 的 首选 。Anthony FaderD] 等 介 


于 履 盖 概念 多 ， 每 篇 文章 中 都 包含 了 一 个 实体 或 一 个 概念 的 信息 ， 
往往 成 为 研究 者 们 在 开展 此 类 研究 或 构建 其 它 大 规模 
绍 了 GROUNDER 系统 ， 通 过 利用 


LAE 


Wikipedia 上 用 户 


贡献 的 信息 和 新 的 消 卜 模型 , 有 效 利 | 


Hien! T 等 人 将 文本 中 提 到 的 实体 映射 到 Wikipedia 中 正确 


] 先 验 信息 ,组 合 先 验 


言 轧 和 语 境 信 息 以 提高 消 靶 精 度 。 


的 实体 ， 在 基于 候选 实体 统计 秩 


序 模型 基础 上 , 证 明 Wikipedia 和 文本 的 功能 组 合 是 消 歧 的 最 好 选择 。Danuta PlochP145: A 3 
实体 名 称 消 歧 看 做 是 将 文本 中 的 实体 提 及 与 预定 义 在 知识 库 中 的 指称 词 相 关联 的 任务 , 他 们 


在 研究 中 通过 挖掘 
系 推 导出 可 
了 有 效 的 结果 。 
但 是 由 
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j 于 分 类 候选 实体 的 功能 范 


于 Wikipedia 本 身 在 数据 的 准 
少 研究 者 又 将 眼光 转向 了 近年 来 的 热门 


人 确 


k 现 的 实体 间 在 Wikipedia 里 的 关联 关系 ， 通 过 实体 共 
围 ， 并 将 消 此 功能 进行 组 合 ， 


性 、 概 


组 织 过 的 LOD 在 准确 性 和 关联 表达 方 


念 结构 的 表达 方 
知识 库 之 一 linked open data (LOD) , 经 过 人 工 筛选 、 
备 更 强 的 知识 处 理 优 势 。Danica DamljanovicU?! 


等 人 认为 Linked Data 是 扩充 已 可 | 


Linked Data 相似 度 测 度 方法 进行 结合 ， 
FreeBase 和 句法 分 析 结 合 


Nebhin9 等 人 采用 
果 的 提升 。 

除 LOD 外 ， 各 种 语义 
知识 库 。Horacio Saggiont! 
成 任务 方 


二 是 基于 本 体 的 跨 数据 源 对 象 集成 。 
该 Ontology 包含 商业 领域 的 类 
公司 雇员 数目 、 公 司 地 址 、 网 址 


层次 结构 、 关 系 和 
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j 语 境 的 有 效 资源 ， 并 将 
E 明 该 方法 能 提高 Wikipedia 消 歧 精度 。Kamel 


现 与 歧义 形式 的 关 
] SVM 分 类 器 得 到 


进 的 命名 实体 工具 与 基 了 


的 方式 完成 词义 消 下 的 任务 , 试验 显示 了 消 上 效 


层级 关联 更 为 丰富 的 本 体 也 是 研究 者 们 探索 实体 名 称 规范 的 重要 
等 基于 欧盟 的 MUSING? 平 台 ， 在 跨 数据 源 的 知识 单元 获取 与 集 
用 做 出 了 一 定 探索 , 他们 是 整个 研究 过 程 分 为 两 个 部 分 ， 


是 基于 本 体 的 信息 抽取 ， 


其 中 ， 由 领域 专家 构建 的 商业 本 体 是 系统 的 首要 特征 ， 
属性 ， 其 定义 的 对 象 主要 包括 : 公司 名 、 
电话 、 传 真 和 鳃 利 状况 等 。 在 对 每 一 片 文档 进行 标注 后 ， 


获取 各 标注 对 象 所 在 的 文档 和 描述 内 容 部 分 , 计算 其 相似 度 , 实现 多 数据 源 中 同一 个 标识 对 


象 的 聚 类 ， 从 而 实现 命名 实体 的 规范 。Farhad Abedini02 等 人 利用 


YAGO 中 提供 的 大 量 的 实 


体 之 间 的 事实 描述 来 鉴别 文本 中 的 语义 实体 。Xianpei Han03 等 人 综合 利用 WordNet、 


Wikipedia、 网 页 信息 等 多 和 


知识 源 挖 掘 实体 指称 项 的 上 下 文 语义 信息 ， 并 提出 了 基于 


知识 表示 模型 , 将 异 构 语 义 


言 息 融 合 在 统一 的 基于 图 的 知识 表示 框架 下 ， 


图 的 
以 此 为 基础 挖掘 概 


念 之 间 的 潜在 语义 关联 ， 从 而 同时 集成 来 自 于 不 同 知 识 源 的 语义 知识 ， 有效 提 升 了 实体 名 称 


规范 的 效率 。 
2.3 基于 社会 网 络 的 实体 名 称 规范 研究 


随 着 搜索 引擎 和 社会 网 络 挖掘 技术 的 不 断 发 展 ， 利 1 
进而 实现 相应 的 实体 消解 方法 也 逐渐 成 为 目前 的 关键 思路 


名 的 消 上 收 ， 通 常 是 先 使 ) 
不 同 图 划分 ? 


人 物 社会 关系 关联 构建 社会 网 络 ， 


, 此 类 方法 通常 主要 应 用 于 人 


j 谱 聚 类 对 社会 网 络 中 的 人 名 聚 类 ,然后 根据 不 同 社会 网 络 边 权 值 和 
车 则 对 人 名 消 此 效果 的 影响 ， 引 入 模块 度 冰 值 作为 社会 网 络 划分 的 停止 条 件 09 。 


? MUlti-industry, Semantic-based next generation business INtelliGence， 基 于 语义 的 下 一 代 多 产业 商业 情报 


图 1 展示 了 典型 的 基于 社会 网 路 的 实体 名 称 规范 框架 。 


在 基于 社会 网 络 的 实体 名 称 规范 方面 ，RonBekkerman05 等 人 提出 了 一 种 非 监督 的 框架 


来 解决 检索 某 个 特定 人 物 时 返回 大 量 无 关 人 员 页 面 的 问题 ,其 中 两 个 关键 内 容 包 括 网 页 间 的 


链接 关系 与 Agglomerative 重复 聚 类 。 在 该 方法 中 ,网 页 间 的 链接 关系 即 主要 用 于 构建 


人 物 的 社会 


网 络 。 郎 君 09 等 人 依据 同名 的 不 同人 物 具 有 不 同 的 社会 网 络 的 思想 ， 利 用 检索 结果 中 共 现 的 
人 名 发 现 并 拓展 检索 人 物 相关 的 潜在 社会 网 络 , 结合 图 的 谱 分 割 算 法 和 模块 度 指标 进行 社会 
网 络 的 自动 聚 类 , 在 此 基础 上 实现 人 名 检索 结果 的 重 名 消解 . 在 人 工 标注 的 中 文人 名 语 料 上 
进行 实验 ,整体 性 能 达到 较 好 水 平 ， 图 聚 类 算法 能 帮助 连通 社会 网 络 的 进一步 划分 ， 从 而 提 


高 消解 效果 。 


= 社会 关系 获取 


人 名 1 人 人 名 2 到 人 名 4 人 名 7 
u^. 人 名 10 
人 名 3S 人 名 5 480 

人 名 6 人 名 9 


AA] i OX RS FSI 


人 名 A Snippets 
重 名 消解 结果 


人 名 A 社 会 关系 聚 类 结果 人 名 A 拓展 关系 图 


图 1 典型 的 基于 社会 网 路 的 共 指 消解 框架 09 


陈晨 吃 等 人 先 使 用 谱 聚 类 对 社会 网 络 中 的 人 名 聚 类 ,然后 根据 不 同 社会 网 络 边 权 值 和 
不 同 图 划分 准则 对 人 名 消 此 效果 的 影响 ,引入 了 模块 度 阔 值 作为 社会 网 络 划分 的 停止 条 件 ， 


在 共 指 消解 方面 取得 了 较 好 的 效果 。JADERICK P. PABICOU7 针 对 社交 网 络 中 的 实体 名 称 歧 


义 问 题 ， 提 出 采用 图 - 字 图 的 方式 来 确定 不 同 实体 的 相似 性 ， 从 而 解决 实体 名 称 的 卜 义 。 
Mohammad 等 人 针对 数字 图 书馆 中 多 来 源 数据 汇集 造成 的 作者 名 称 消 层 ， 提 出 通过 构 


建 共 著 网 络 ， 利 用 局 发 式 聚 类 方法 ， 
3 实体 名 称 规范 相关 的 重要 项 目 、 评 测 会 议 


实体 名 称 规范 的 研究 离 不 开 重 大 项 目 、 国 际 评测 会 议 的 推动 发 展 , 本 文 对 这 些 重点 内 容 


进行 了 梳理 ， 和 希望 给 后 续 的 研究 者 提供 相应 的 参考 。 
3.1 国内 外 主要 的 实体 名 称 规 范 项 目 
(1) 英国 国家 档案 馆 TNA-Search M HUS 


英国 国家 档案 馆 TNA3 (the National Archives). 是 大 规模 实体 名 称 规范 的 代表 性 项 目 。 


3 TNA-search 作为 Govenment Web Archive Project 中 的 一 部 分 , 主 则 在 于 如 何 用 简单 直观 的 机 秆 
中 与 政府 网 站 相关 的 记录 (记录 回溯 到 1997 E, 包含 了 大 概 7 亿 的 网 页 ) 的 开放 利用 度 


|, 提高 TNA 


为 了 解决 项 目 中 的 实体 名 称 规范 问题 TNA-Search 项 目 主 要 利用 GATE， 联合 了 FactForge^ 
和 SKB (Semantic Knowledge Base) Ontology?, 构建 了 大 规模 的 语义 仓储 库 (Large knowledge 
base, LKB) ,通过 仓储 库 所 提供 的 详细 的 对 象 描述 等 背景 信息 , 计算 实现 实体 名 称 的 规范 。 
具体 而 言 ， 该 项 目 基 于 LKB 直接 将 文档 中 的 实体 与 各 种 不 同 的 本 体 建立 关联 ， 或 者 通 
过 其 中 的 实例 , 或 者 通过 概念 。 LKB 使 用 了 一 系列 SPARQL 查询 集合 的 配置 文件 到 SKB 中 
检索 。 标注 的 实体 与 SKB 中 的 实例 关联 是 通过 两 个 互补 的 途径 完成 的 : 通过 LKB 词典 找到 
一 个 匹配 时 ，SKB 中 类 与 实例 信息 被 添加 到 文本 中 的 相关 实体 上 ; 文本 中 的 实体 与 SKB 中 
的 类 或 实体 没有 直接 关联 时 , 通过 共 指 的 方式 实现 关联 。 即 如 果 文 本 中 某 段 提 及 在 上 述 过 程 
中 已 经 与 SKB 建立 关联 时 ， 该 实体 所 有 共 指 提 及 均 可 通过 TNA Instance Generator 自动 获得 
相同 类 和 实例 信息 。 在 进行 规范 标注 时 , 项 目 将 一 篇 文档 中 同一 个 实体 的 不 同 表达 关联 在 一 
起 ， 同 时 还 添加 通过 semantic tagger 发 现 的 标注 间 的 特征 关系 。 通 过 这 种 规范 标注 方式 ， 
TNA-Search 实现 了 人 物 、 地 理 名 称 、 机 构 、 时 间 等 11 种 命名 实体 的 自动 标注 与 规范 。 
(2) OKKAM!” 

OKKAM 是 由 欧盟 委员 会 资助 的 第 七 框架 项 目 (FP7) 下 的 一 个 大 规模 集成 项 目 ,其 基本 理 
念 是 根据 14 世纪 的 “ 奥 卡 姆 剃刀 (Occam”s razor)” 原 则 ， 提 倡 如 果 没 有 必要 则 不 增加 实体 
的 标识 符 。OKKAM 为 内 容 创建 者 、 编 辑 和 开发 人 员 等 提供 一 个 全 球 性 的 基础 设施 , 称 为 实 
体 命 名 系统 (entity name system, 简称 ENS)， 该 系统 中 包含 了 一 种 基于 特征 的 实例 匹配 方法 
FBEM， 该 匹配 方法 通过 集成 两 个 实例 标识 符 的 多 种 不 同 特征 属性 及 其 属性 值 之 间 的 相似 
度 ， 识 别 出 可 能 的 对 象 共 指 。 例 如 ，FBEM 使 用 了 基于 Levenstein 编辑 距离 的 方法 来 比较 
实例 标识 符 的 本 地 名 。 

G) 国内 典型 的 项 目 
共 指 消解 和 实体 消 靶 是 文本 处 理 中 非常 重要 的 任务 之 一 ， 它 对 于 提高 信息 检索 的 效率 、 
深度 的 文本 挖掘 有 着 非常 重要 的 作用 ， 国 内 目前 在 此 方面 也 有 不 少 相 关 的 研究 项 目 在 开展 。 
比较 典型 的 有 清华 大 学 的 RiMoMPo0 和 南京 大 学 的 ObjectCoref201。 
RiMOM 是 清华 大 学 研发 的 一 种 集成 了 多 种 本 体 匹 配方 法 的 多 策略 本 体 匹 配 系统 ， 其 
中 也 包含 了 多 种 实例 匹配 方法 。 针 对 实例 匹配 ，RiMOM 将 每 个 实例 所 含 信 息 分 为 6 25: 
URL、 元 信息 、 名 称 、 字 符 串 类 型 信息 、 非 字符 串 类 型 信息 和 邻居 信息 。 通 过 基于 编辑 距离 
的 方法 和 向 量 空间 模型 ,计算 实例 所 含 各 种 信息 之 间 的 相似 度 ， 并 使 用 元 信息 和 非 字 符 串 类 
型 信息 进一步 过 滤 , 最 后 通过 多 种 策略 将 各 种 相似 度 集 成 起 来 用 于 发 现 对 象 共 指 。 

与 RiMoM 不 同 ， 南 京 大 学 的 ObjectCoref 基于 语义 Web 搜索 系统 Falcons 提供 的 数 
据 集 ， 目 前 已 经 包含 7300 多 万 个 实例 标识 符 。ObjectCoref 首先 利用 语义 等 价 推理 ， 包 括 
owl:sameAs、 函 数 型 或 反 函 数 型 属性 以 及 基数 或 最 大 基数 限制 ， 构 建 出 一 个 初始 训练 集 ; 随 
后 ， 基 于 这 个 训练 集 不 断 学 习 , 自 举 式 地 识别 对 象 共 指 ， 其 中 的 关键 技术 是 从 训练 集中 学 习 


^ OntoText 开发 的 知识 库 ， 该 知识 库 包 含 了 超过 22 亿 声 明和 来 源 于 多 个 源 的 数据 集 
5 OntoText 开发 ， 基 于 CGO (Central Government Ontology ) 与 UK 政府 的 官员 职位 、8138 个 官员 名 字 以 及 
无 歧义 的 UK 政府 机 构 名 称 


ETRAS RII 
PAREMA 


BIEK 
EHE. 


Er 


指 ( 


一 对 象 的 实例 标识 符 进 
时 成 的 体系 结构 ,能 够 较为 全 
学 习 过 程 中 的 错误 积累 。 使 
3.2 实体 名 称 规范 的 相关 评测 会 议 


i 


EU 


p 


导 识 别 的 准 


惊 性 值 。 该 系统 还 考虑 了 频繁 


TH 


姓 


可 以 解 引 以 及 实例 标识 符 在 不 同 RDF 文档 中 的 出 现 次 数 
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为 了 促进 实体 名 称 规范 研究 的 不 断 发 展 , 国际 j] 
| 化 评测 任务 ， 提 供 相应 的 语 料 集合 ， 提 供 交流 的 平台 
展 。 本 文 筛 选 了 几 个 比较 典型 的 评测 会 议 进 


RWM 


上 有 不 少 与 之 相关 的 评测 会 议 ， 


, 


行 了 介绍 ， 以 期 为 其 它 研究 提供 一 


(1) Automatic Context Extraction(ACE) 与 Text Analysis Conference (TAC) 


ACE 会 议 是 从 1999 年 7 月 开始 酝酿 ,2000 年 12 
住 和 技术 学 会 (NIST) ， 以 及 中 央 情 报 局 (CIA) 
if 8 me. ACE 的 测评 任务 定义 为 : 实体 探测 与 识 另 
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月 正式 启动 ,上 
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动 者 相关 研究 的 不 断 发 
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美国 国家 安全 局 (NSA)， 
同 主管 ， 到 今年 为 止 已 经 举 
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简称 EDR)、 价 值 探测 与 识别 (Value Detection and Recognition ， 简 称 VAL)、 时 间 表 达 识 别 


SES! 


(Relation Detection and Recognition ， 人 简称 
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Recognition， 简 称 VDR). 
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务 将 篇 章 中 出 现 的 各 种 提 太 
中 首先 需要 识别 出 各 入 
过 程 。 值 得 
次 评测 。 其 中 的 共 指 消解 


ES 


从 2009 年 开始 到 现在 共 进 行 了 六 届 

(Entity Linking) | 

wikipedia 构建 ， 

万 ， 其 它 类 别 实体 53 万 ， 目 标 知识 库 总 量 约 2.6G 


述 指 向 对 应 的 实体 ， 从 而 给 出 一 个 实体 全 
表述 ， 然 后 将 描述 同 
提 的 是 ， 从 2003 年 开始 ACE 中 开始 包含 中 文 的 相关 评测 ， 至 今 已 经 开展 5 
也 是 迄今 为 止 唯一 的 中 文 共 指 消解 


而 的 描述 。 


全 化 (Time Expression Recognition and Normalization ， 简 称 TERN)、 关 系 探测 与 识别 
RDR) 以 及 事件 探测 与 识别 (Event Detection and 
任务 主要 蕴含 于 实体 探测 与 识别 EDR 中 。 该 任 


这 项 任务 


一 实体 的 表述 合并 ,该 合 } 


5 指 消解 的 


FE 过程 就 是 


国际 评测 。 


(2) web 环境 中 人 名 消 卜 任务 评测 会 议 -Web Peop 
WePS 是 针对 英文 网 页 中 人 名 消 此 任务 进行 训 


24]. 
le Search Evaluation (WePS ) 
EW EPI. H 


Satoshi Sekine EHHA 
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个 不 同 的 涉及 的 人 员 在 检索 结果 中 ,并 将 特定 的 指称 分 配给 相应 的 文档 。 从 总 体 : 
问题 。 对 给 定 的 一 组 文档 , 按照 文档 中 出 现 的 茶 个 指定 的 人 名 所 指向 的 人 进 


个 任务 是 个 聚 类 


行 聚 类 。 最 后 , 在 每 个 类 中 , 所 有 指定 的 人 名 都 必须 
需要 重点 从 人 物 的 
地 、 别 名 、 工 作 、 所 属 机 构 、 获 得 奖项 、 学 校 、 学 位 、 专 业 、 民 族 、 电 话 等 多 个 方 


发 布 的 评测 任务 看 ， 在 该 评测 中 ， 


HR, ESKE 


kE 


在 2008 年 之 后 , ACE 会 议 被 Text Analysis Conference (TAC) [3 会 议 所 取代 , TAC-KBP 
， 该 评测 任务 中 直接 与 实体 名 称 规范 相关 的 即 实体 链接 
F 测 。 目 前 ，TAC 实体 链接 任务 的 目标 实体 知识 库 使 用 
包含 近 82 个 实体 ， 其 中 有 人 物 实 体 11 万 ， 组 织 实 体 5.5 万 ， 地 理 实 体 11 


2008 年 10 月 版 本 的 


H Julio Gonzalo 和 
kk 组织 过 三 次 2。 该 任务 集中 于 在 web 检索 场景 中 


| 一 个 以 人 名 为 检索 式 的 web 检索 后 ， 确 


定 有 多 少 


是 指向 现实 生活 


中 的 同一 个 人 。 


ES 
E 
B3 


上 来 说 ， 这 


从 WePS3 


性 角度 出 发 ， 包括 人 员 的 生日 、 出 生 


年代 信 


息 。 受 该 项 目 启发 ， 李 文 捷 等 人 也 于 2010 年 组 织 发 起 了 专门 针对 中 文人 名 消 歧 的 评测 任务 
RP6]， 至 今 已 经 举办 了 两 届 。 
G) 指 代 消解 练习 (ARE) El 
2006 Æ 11 月 到 2007 年 3 月 ， 英 国 伍 尔 佛 汉 普 敦 大 学 发 起 了 一 个 名 为 指 代 消 解 练习 
(ARE) 的 共 指 消解 评测 。 这 项 评测 是 在 英文 上 进行 的 迄今 为 止 最 全 面 的 共 指 消解 评测 ， 包 含 
四 项 评测 任务 : 
e 预 标注 文档 上 的 人 称 代词 消解 : 文档 内 的 名 词 短语 都 被 识别 出 来 ,而且 需要 消解 的 
代词 也 被 标注 出 来 ,参加 系统 需要 对 每 个 人 称 代词 在 一 个 不 包含 人 称 代词 的 名 词 短 
语 列表 中 找到 正确 的 先行 语 。 
e 预 标注 文档 上 的 共 指 消解 : 文档 内 所 有 的 名 词 短语 都 被 识别 出 来 , 参加 系统 需要 将 
文档 内 的 所 有 共 指 链 识别 出 来 。 
e 生 语 料 上 的 人 称 代词 消 解 ， 和 第 一 项 任务 不 同 的 是 ， 评 测 文档 没有 经 过 任何 标注 ， 
需要 参加 系统 自行 识别 相关 信息 。 
e 生 语 料 上 的 的 共 指 消解 : 和 第 二 项 任务 不 同 的 是 ， 评 测 文档 没有 经 过 任何 标注 ， 
e 需要 参加 系统 自行 识别 相关 信息 。 
从 上 述 的 三 种 不 限于 领域 的 评测 外 , 还 有 一 些 领 域 特定 的 共 指 消解 任务 评测 ， 如 生物 医 
药 领 域 的 生物 医药 领域 的 自然 语言 处 理 及 应 用 联合 工作 组 JNLPBA( Joint Workshop on 
Natural Language Processing in Biomedicine and Its App lications) 和 以 及 生物 学 领域 信息 抽取 


SS 


Z 


vo 


的 关键 评价 BioCreAtIve( Citical Assessment of Information Extraction Systems in Biology). AX 
些 评 测 会 议 不 断 推动 着 实体 名 称 规范 研究 的 开展 。 
4 实体 名 称 规范 的 研究 趋势 

尽管 目前 针对 实体 名 称 规 范 的 研究 已 经 开展 得 较为 成 熟 ， 但 从 评测 会 议 的 结果 《〈2012 
年 参加 TAC entity linking 测评 的 系统 平均 效率 为 72.1%P9 ) 来 看 ,目前 的 识别 效率 仍 不 足以 
满足 大 规模 的 实际 应 用 ， 其 中 还 面临 着 很 多 问题 需要 解决 。 比 如 空 目标 实体 问题 、 知 识 库 的 
履 盖 度 问题 、 知 识 库 不 确切 的 问题 、 知 识 库 使 用 的 问题 等 等 ”。 因 此 ， 围 绕 着 这 些 问 题 ， 此 
领域 的 研究 主要 存在 以 下 几 种 发 展 趋势 。 
(D 算法 趋 于 多 模型 的 融合 
在 过 去 的 研究 中 , 基于 语言 学 特征 的 统计 学 方法 和 机 器 学 习 方 法 主流 是 分 开 思 考 的 , 很 
多 研究 都 是 在 机 器 学 习 的 分 类 或 聚 类 中 选择 特征 是 再 考虑 加 入 一 些 语言 学 特征 , 这 种 融合 方 
式 对 提高 识别 的 效率 比较 有 限 。 目前 的 研究 中 , 研究 者 们 逐渐 开始 考虑 利用 语言 学 思路 来 构 
建 更 加 丰富 的 机 器 学 习 模型 。Elango 提出 了 一 种 初始 化 的 建议 ， 结 合 中 心理 论 和 条 件 随 机 
域 模型 (CRF) 来 实现 人 称 代词 消解 。 基 于 CRF 模型 的 灵活 性 ， 依 赖 于 上 下 文 的 传递 优选 性 
能 被 很 好 的 融入 到 模型 中 BI。PoesioB1 等 人 将 子 句 作为 话语 单元 ,将 篇 章 可 以 表示 成 一 系列 
子 句 的 集合 , 进而 将 篇 章 表示 为 一 系列 预 指 中 心 集合 的 特征 空间 。 这 个 预 指 中 心 列表 构成 的 
特征 空间 可 以 融合 一 些 相 关 特 征 ， 例 如 语法 角色 、 性 别 、 单 复数 等 。 类 似 的 序列 CRF 模型 
上 的 推理 和 估计 ， 还 可 以 采用 Sutton and McCallum 讨论 的 技术 B2]。 
(2) 消 歧 特征 的 盘 选 越 来 越 多 样 化 


从 当前 发 表 的 研究 论文 集中 的 研究 主题 


[E 
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究 者 们 越 来 越 重视 在 实体 名 称 规范 中 引 


入 越 来 越 多 的 特征 ,单纯 从 算法 上 进行 改进 而 实施 基于 “知识 匮乏 ”的 研究 方法 越 来 越 不 被 
主流 研究 所 看 重 。 归 纳 起 来 ， 目 前 常用 的 实体 消 歧 特征 主要 如 表 1 所 示 。 
d 1 实体 消 歧 特 征 归 纳 
特征 大 项 有 具体 消 歧 特征 
词汇 特征 单 复数 、 距 离 、 人 称 、 字 符 串 匹配 、 词 性 等 
语法 特征 句法 依存 、 语 法 角色 等 
语义 特征 实体 类 型 、 实 体 属性 〈 不 同类 型 实体 的 属性 定义 各 有 不 同 ) 、 同 位 、 别 称 、 
维基 百科 类 别 的 重合 度 等 
其 它 实体 句 内 共 现 、 上 下 文 相 似 度 、 维 基 百 科 文 章 中 的 入 链 及 出 链 文 本 等 
被 应 用 的 特征 越 来 越 多 , 而 不 断 涌现 出 的 各 种 语 料 资 源 库 恰 恰 为 这 些 深层 的 语言 学 知识 


获取 提供 了 非常 好 的 途径 。 这 些 知识 主要 可 以 从 以 下 三 巴 
a、Yago 等 ; (QW 


WordNet, HowNet、WikiPedia、DBPedi 


如 Hearst 等 通过 构建 了 “is-a” 等 模板 ， 


于 从 文本 中 发 现 同义词 6B1;，Bergsmab4 在 一 个 经 过 


途径 获取 : 加 常规 的 知识 库 ， 如 
用 大 规模 的 i 


吾 料 库 挖 掘 模式 信息 。 


息 的 模板 化 提取 ; Yang and SuB5 利 ) 


AE 


互联 网 这 一 语料库 , 利用 搜索 引擎 显 本 


:的 各 个 产 寻 


S 


三 种 方法 是 将 整个 互联 网 当成 一 个 
数 来 计算 各 种 相关 信息 ， 


(3) 大 规模 知识 库 的 自动 构建 成 为 实体 规范 研究 的 重 
实验 充分 表明 ， 高 质量 的 大 规模 知识 库 对 提升 实体 名 称 规范 的 效率 有 重 

面 对 当 前 指数 级 增长 的 网 络 数据 , 依靠 人 工 的 专家 构建 知识 库 方式 显然 费 昌 
JE. 富 含 语义 信息 关联 的 大 规模 知识 库 的 自动 构建 显得 


eds Bine. DS 


巨大 的 语料库 , 利 | 
例如 Poesio 等 人 通过 计算 互信 息 来 考察 夫 


到 


Minipar 依 存 分 析 的 语料库 上 获取 了 大 量 的 指 代 信息 ， 实 现 了 英文 名 词 短语 性 另 


1 和 单 复数 信 


语料库 中 发 现 的 模板 信息 来 增强 
的 返回 数 来 i 
j 搜 索引 擎 显示 的 各 个 查询 


指 消解 。@@ 充 分 利 
十 算 各 种 相关 信息 。 第 
到 的 返回 


得 


S 


要 


组 成 之 一 


个 短语 的 关联 程度 。 


强 的 支撑 作用 。 
TRJ, HAER 


尤为 重要 。 开 放 式 信 


县 抽取 技术 的 研究 以 及 wikipedia、freebase 等 大 规模 半 结 构 化 的 网 络 知识 库 的 出 现 ， 为 大 规 


模 知识 库 的 自动 构建 提供 了 良好 的 基础 。 


YAGO, ZEHE K) 
RIK 
还 赋予 了 可 信和 度 的 标注 ， 准 确 
实体 关联 的 事实 记录 ”"。 此 外 ， 中 
AERA D) CR 
实例 并 综合 利 | 


概念 实例 挂 载 ， 
取 ， 为 下 一 步 研发 
5 结语 

本 文 围绕 
实体 名 称 规范 的 主 


要 


电路 与 方法 , 目前 


国内 外 与 实体 名 称 规范 相关 的 理论 、 方 ; 
国内 外 典型 的 几 个 实体 名 称 
入 了 解 实 体 名 称 规范 的 主要 内 容 , 并 结合 实体 规范 研究 


目前 ， 较 有 代 


表 性 的 工作 有 基于 Wikipedia 的 
实例 、 实 例 间 关联 三 元 组 的 方式 存储 知识 ， 所 有 的 实例 和 实例 间 的 关 


原 于 wikipedia 的 category pages, 并 与 WordNet 进行 衔接 , 对 于 每 一 个 实体 事实 YAGO 
率 达 到 9596, YAGO2 中 包含 了 1000 万 个 实体 及 1. 2 亿 条 描述 
国 科学 院 自动 化 所 的 赵 军 等 人 ， 利 ) 
国 大 百科 全 书 》 知 识 体系 作为 目标 知识 库 的 结构 ， 从 网 络 知识 库 中 抽取 概念 
网 络 百 科 网 页 中 强 含 的 丰富 的 语义 标签 、 半 结构 化 信息 和 非 结 构 化 信息 进 
将 百科 知识 库 从 8 万 条 目 扩展 为 百 万 条 目 级 别 , 在 此 基础 


j 在 信息 抽取 方面 的 技 


行 
属性 抽 


上 进行 概念 


用 向 开放 式 的 自动 问答 系统 提供 了 知识 资源 的 支撑 。 


YA 


进行 了 深入 


下 临 的 现实 


三 泛 深入 的 分 析 ， 分 别 从 


规范 项 目 和 评测 会 议 , 深 


问题 , 分析 了 实体 名 称 规 


范 的 研究 趋势 。 
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